Efficient Estimation of Word Representations in Vector Space

2016-10-30

Abstract

提出两个创新的模型架构，用于在非常大的数据集上计算连续型的词向量表示。这些表示的好坏的用词相似性任务来测量。计算复杂度下降了，同时在准确度上还有巨大的提升。在当时是state-of-the-art的做法。

许多现在的系统将词表示在词库中的索引，并不包含词的相似性的概念。这个选择的原因是：简单、鲁棒以及一个观察到的现象：在大量数据上训练出来的简单模型要比在少量数据上训练出来的复杂模型的表现要好。一个例子就是N-gram模型。

但是简单模型也有很多的局限性，比如在数据量不足的时候。随着这些年机器学习技术的发展，在更大的数据集上训练出复杂模型成为可能，并且它的效果要好于简单模型。最成功的概念就是使用词的分布式表示。例如基于语言模型的神经网络就显著地比N-gram模型好。

文章的主要目的就是介绍一个技术，这个技术可以用于学习高质量的word vector。数据集是包含了数十亿词的巨大的数据集。其中还包含了数百万的词汇量。

我们使用了最近提出的一项技术来测量向量表示的质量。不仅相似的词要互相接近，并且这些词还要有多种程度的相似性。

有点惊喜的是，词表示的相似性不只是简单的句法规则。比如vector(“King”)-vector(“Man”)+vector(“Woman”) 约等于vector(Queen)

在这个文章中，我们尝试去最大化这些向量操作的准确性，通过开发一种新的可以保留词之间的线形规则的模型架构。我们还构建了一个综合的测试集。

LSA LDA也用于估计连续的词表示。本文的方法可以比LSA的方法保留更多的线形规则，而LDA在大数据集上的计算复杂性太高了。